当前位置: 开发笔记 > 编程语言 > 正文

目标值|发生_保姆级教程使用LSTM进行多变量时间序列预测

作者：风云a899 | 来源：互联网 | 2023-09-08 17:27

篇首语：本文由编程笔记#小编为大家整理，主要介绍了保姆级教程使用LSTM进行多变量时间序列预测相关的知识，希望对你有一定的参考价值。大家好，今天我给大家

篇首语：本文由编程笔记#小编为大家整理，主要介绍了保姆级教程使用 LSTM 进行多变量时间序列预测相关的知识，希望对你有一定的参考价值。

大家好&＃xff0c;今天我给大家详细分享一篇使用 LSTM 进行端到端时间序列预测的实战项目&＃xff0c;本文内容较长&＃xff0c;欢迎收藏、点赞、关注。文末给出完整代码。

我们先来了解两个主题&＃xff1a;

什么是时间序列分析?
什么是 LSTM&＃xff1f;

时间序列分析&＃xff1a; 时间序列表示基于时间顺序的一系列数据。它可以是秒、分钟、小时、天、周、月、年。未来的数据将取决于它以前的值。

在现实世界的案例中&＃xff0c;我们主要有两种类型的时间序列分析&＃xff1a;

单变量时间序列
多元时间序列

对于单变量时间序列数据&＃xff0c;我们将使用单列进行预测。

正如我们所见&＃xff0c;只有一列&＃xff0c;因此即将到来的未来值将仅取决于它之前的值。

但是在多元时间序列数据的情况下&＃xff0c;将有不同类型的特征值并且目标数据将依赖于这些特征。

正如在图片中看到的&＃xff0c;在多元变量中将有多个列来对目标值进行预测。&＃xff08;上图中“count”为目标值&＃xff09;

在上面的数据中&＃xff0c;count不仅取决于它以前的值&＃xff0c;还取决于其他特征。因此&＃xff0c;要预测即将到来的count值&＃xff0c;我们必须考虑包括目标列在内的所有列来对目标值进行预测。

在执行多元时间序列分析时必须记住一件事&＃xff0c;我们需要使用多个特征预测当前的目标&＃xff0c;让我们通过一个例子来理解&＃xff1a;

在训练时&＃xff0c;如果我们使用 5 列 [feature1, feature2, feature3, feature4, target] 来训练模型&＃xff0c;我们需要为即将到来的预测日提供 4 列 [feature1, feature2, feature3, feature4]。

LSTM

本文中不打算详细讨论LSTM。所以只提供一些简单的描述&＃xff0c;如果你对LSTM没有太多的了解&＃xff0c;可以参考我们以前发布的文章。

LSTM基本上是一个循环神经网络&＃xff0c;能够处理长期依赖关系。

假设你在看一部电影。所以当电影中发生任何情况时&＃xff0c;你都已经知道之前发生了什么&＃xff0c;并且可以理解因为过去发生的事情所以才会有新的情况发生。RNN也是以同样的方式工作&＃xff0c;它们记住过去的信息并使用它来处理当前的输入。RNN的问题是&＃xff0c;由于渐变消失&＃xff0c;它们不能记住长期依赖关系。因此为了避免长期依赖问题设计了lstm。

现在我们讨论了时间序列预测和LSTM理论部分。让我们开始编码。

让我们首先导入进行预测所需的库&＃xff1a;

import numpy as np import pandas as pd from matplotlib import pyplot as plt from tensorflow.keras.models import Sequential from tensorflow.keras.layers import LSTM from tensorflow.keras.layers import Dense, Dropout from sklearn.preprocessing import MinMaxScaler from keras.wrappers.scikit_learn import KerasRegressor from sklearn.model_selection import GridSearchCV

加载数据&＃xff0c;并检查输出&＃xff1a;

df&＃61;pd.read_csv("train.csv",parse_dates&＃61;["Date"],index_col&＃61;[0]) df.head()

df.tail()

现在让我们花点时间看看数据&＃xff1a;csv文件中包含了谷歌从2001-01-25到2021-09-29的股票数据&＃xff0c;数据是按照天数频率的。

[如果您愿意&＃xff0c;您可以将频率转换为“B”[工作日]或“D”&＃xff0c;因为我们不会使用日期&＃xff0c;我只是保持它的现状。]

这里我们试图预测“Open”列的未来值&＃xff0c;因此“Open”是这里的目标列。

让我们看一下数据的形状&＃xff1a;

df.shape(5203,5)

现在让我们进行训练测试拆分。这里我们不能打乱数据&＃xff0c;因为在时间序列中必须是顺序的。

test_split&＃61;round(len(df)*0.20) df_for_training&＃61;df[:-1041] df_for_testing&＃61;df[-1041:] print(df_for_training.shape) print(df_for_testing.shape) (4162, 5) (1041, 5)

可以注意到数据范围非常大&＃xff0c;并且它们没有在相同的范围内缩放&＃xff0c;因此为了避免预测错误&＃xff0c;让我们先使用MinMaxScaler缩放数据。(也可以使用StandardScaler)

scaler &＃61; MinMaxScaler(feature_range&＃61;(0,1)) df_for_training_scaled &＃61; scaler.fit_transform(df_for_training) df_for_testing_scaled&＃61;scaler.transform(df_for_testing) df_for_training_scaled

将数据拆分为X和Y&＃xff0c;这是最重要的部分&＃xff0c;正确阅读每一个步骤。

def createXY(dataset,n_past): dataX &＃61; [] dataY &＃61; [] for i in range(n_past, len(dataset)): dataX.append(dataset[i - n_past:i, 0:dataset.shape[1]]) dataY.append(dataset[i,0]) return np.array(dataX),np.array(dataY) trainX,trainY&＃61;createXY(df_for_training_scaled,30) testX,testY&＃61;createXY(df_for_testing_scaled,30)

让我们看看上面的代码中做了什么&＃xff1a;

N_past是我们在预测下一个目标值时将在过去查看的步骤数。

这里使用30&＃xff0c;意味着将使用过去的30个值(包括目标列在内的所有特性)来预测第31个目标值。

因此&＃xff0c;在trainX中我们会有所有的特征值&＃xff0c;而在trainY中我们只有目标值。

让我们分解for循环的每一部分&＃xff1a;

对于训练&＃xff0c;dataset &＃61; df_for_training_scaled, n_past&＃61;30

当i&＃61; 30&＃xff1a;

data_X.addend (df_for_training_scaled[i - n_past:i, 0:df_for_training.shape[1]])

从n_past开始的范围是30&＃xff0c;所以第一次数据范围将是-[30 - 30,30,0:5] 相当于 [0:30,0:5]

因此在dataX列表中&＃xff0c;df_for_training_scaled[0:30,0:5]数组将第一次出现。

现在, dataY.append(df_for_training_scaled[i,0])

i &＃61; 30&＃xff0c;所以它将只取第30行开始的open(因为在预测中&＃xff0c;我们只需要open列&＃xff0c;所以列范围仅为0&＃xff0c;表示open列)。

第一次在dataY列表中存储df_for_training_scaled[30,0]值。

所以包含5列的前30行存储在dataX中&＃xff0c;只有open列的第31行存储在dataY中。然后我们将dataX和dataY列表转换为数组&＃xff0c;它们以数组格式在LSTM中进行训练。

我们来看看形状。

print("trainX Shape-- ",trainX.shape) print("trainY Shape-- ",trainY.shape) (4132, 30, 5) (4132,) print("testX Shape-- ",testX.shape) print("testY Shape-- ",testY.shape) (1011, 30, 5) (1011,)

4132 是 trainX 中可用的数组总数&＃xff0c;每个数组共有 30 行和 5 列&＃xff0c; 在每个数组的 trainY 中&＃xff0c;我们都有下一个目标值来训练模型。

让我们看一下包含来自 trainX 的 (30,5) 数据的数组之一和 trainX 数组的 trainY 值&＃xff1a;

print("trainX[0]-- \\n",trainX[0]) print("trainY[0]-- ",trainY[0])

如果查看 trainX[1] 值&＃xff0c;会发现到它与 trainX[0] 中的数据相同&＃xff08;第一列除外&＃xff09;&＃xff0c;因为我们将看到前 30 个来预测第 31 列&＃xff0c;在第一次预测之后它会自动移动到第 2 列并取下一个 30 值来预测下一个目标值。

让我们用一种简单的格式来解释这一切&＃xff1a;

trainX — — →trainY [0 : 30,0:5] → [30,0] [1:31, 0:5] → [31,0] [2:32,0:5] →[32,0]

像这样&＃xff0c;每个数据都将保存在 trainX 和 trainY 中。

现在让我们训练模型&＃xff0c;我使用 girdsearchCV 进行一些超参数调整以找到基础模型。

def build_model(optimizer): grid_model &＃61; Sequential() grid_model.add(LSTM(50,return_sequences&＃61;True,input_shape&＃61;(30,5))) grid_model.add(LSTM(50)) grid_model.add(Dropout(0.2)) grid_model.add(Dense(1)) grid_model.compile(loss &＃61; &＃39;mse&＃39;,optimizer &＃61; optimizer) return grid_modelgrid_model &＃61; KerasRegressor(build_fn&＃61;build_model,verbose&＃61;1,validation_data&＃61;(testX,testY)) parameters &＃61; &＃39;batch_size&＃39; : [16,20], &＃39;epochs&＃39; : [8,10], &＃39;optimizer&＃39; : [&＃39;adam&＃39;,&＃39;Adadelta&＃39;] grid_search &＃61; GridSearchCV(estimator &＃61; grid_model, param_grid &＃61; parameters, cv &＃61; 2)

如果你想为你的模型做更多的超参数调整&＃xff0c;也可以添加更多的层。但是如果数据集非常大建议增加 LSTM 模型中的时期和单位。

在第一个 LSTM 层中看到输入形状为 (30,5)。它来自 trainX 形状。

(trainX.shape[1],trainX.shape[2]) → (30,5)

现在让我们将模型拟合到 trainX 和 trainY 数据中。

grid_search &＃61; grid_search.fit(trainX,trainY)

由于进行了超参数搜索&＃xff0c;所以这将需要一些时间来运行。

你可以看到损失会像这样减少&＃xff1a;

现在让我们检查模型的最佳参数。

grid_search.best_params_‘batch_size’: 20, ‘epochs’: 10, ‘optimizer’: ‘adam’

将最佳模型保存在 my_model 变量中。

my_model&＃61;grid_search.best_estimator_.model

现在可以用测试数据集测试模型。

prediction&＃61;my_model.predict(testX) print("prediction\\n", prediction) print("\\nPrediction Shape-",prediction.shape)

testY 和 prediction 的长度是一样的。现在可以将 testY 与预测进行比较。

但是我们一开始就对数据进行了缩放&＃xff0c;所以首先我们必须做一些逆缩放过程。

scaler.inverse_transform(prediction)

报错了&＃xff0c;这是因为在缩放数据时&＃xff0c;我们每行有 5 列&＃xff0c;现在我们只有 1 列是目标列。

所以我们必须改变形状来使用 inverse_transform&＃xff1a;

prediction_copies_array &＃61; np.repeat(prediction,5, axis&＃61;-1)

5 列值是相似的&＃xff0c;它只是将单个预测列复制了 4 次。所以现在我们有 5 列相同的值。

prediction_copies_array.shape(1011,5)

这样就可以使用 inverse_transform 函数。

pred&＃61;scaler.inverse_transform(np.reshape(prediction_copies_array,(len(prediction),5)))[:,0]

但是逆变换后的第一列是我们需要的&＃xff0c;所以我们在最后使用了 → [:,0]。

现在将这个 pred 值与 testY 进行比较&＃xff0c;但是 testY 也是按比例缩放的&＃xff0c;也需要使用与上述相同的代码进行逆变换。

original_copies_array &＃61; np.repeat(testY,5, axis&＃61;-1) original&＃61;scaler.inverse_transform(np.reshape(original_copies_array,(len(testY),5)))[:,0]

现在让我们看一下预测值和原始值&＃xff1a;

print("Pred Values-- " ,pred) print("\\nOriginal Values-- " ,original)

最后绘制一个图来对比我们的 pred 和原始数据。

plt.plot(original, color &＃61; &＃39;red&＃39;, label &＃61; &＃39;Real Stock Price&＃39;) plt.plot(pred, color &＃61; &＃39;blue&＃39;, label &＃61; &＃39;Predicted Stock Price&＃39;) plt.title(&＃39;Stock Price Prediction&＃39;) plt.xlabel(&＃39;Time&＃39;) plt.ylabel(&＃39;Google Stock Price&＃39;) plt.legend() plt.show()

看样子还不错&＃xff0c;到目前为止&＃xff0c;我们训练了模型并用测试值检查了该模型。现在让我们预测一些未来值。

从主 df 数据集中获取我们在开始时加载的最后 30 个值[为什么是 30&＃xff1f;因为这是我们想要的过去值的数量&＃xff0c;来预测第 31 个值]

df_30_days_past&＃61;df.iloc[-30:,:] df_30_days_past.tail()

可以看到有包括目标列&＃xff08;“Open”&＃xff09;在内的所有列。现在让我们预测未来的 30 个值。

在多元时间序列预测中&＃xff0c;需要通过使用不同的特征来预测单列&＃xff0c;所以在进行预测时我们需要使用特征值&＃xff08;目标列除外&＃xff09;来进行即将到来的预测。

这里我们需要“High”、“Low”、“Close”、“Adj Close”列的即将到来的 30 个值来对“Open”列进行预测。

df_30_days_future&＃61;pd.read_csv("test.csv",parse_dates&＃61;["Date"],index_col&＃61;[0]) df_30_days_future

剔除“Open”列后&＃xff0c;使用模型进行预测之前还需要做以下的操作&＃xff1a;

缩放数据&＃xff0c;因为删除了‘Open’列&＃xff0c;在缩放它之前&＃xff0c;添加一个所有值都为“0”的Open列。

缩放后&＃xff0c;将未来数据中的“Open”列值替换为“nan”

现在附加 30 天旧值和 30 天新值&＃xff08;其中最后 30 个“打开”值是 nan&＃xff09;

df_30_days_future["Open"]&＃61;0 df_30_days_future&＃61;df_30_days_future[["Open","High","Low","Close","Adj Close"]] old_scaled_array&＃61;scaler.transform(df_30_days_past) new_scaled_array&＃61;scaler.transform(df_30_days_future) new_scaled_df&＃61;pd.DataFrame(new_scaled_array) new_scaled_df.iloc[:,0]&＃61;np.nan full_df&＃61;pd.concat([pd.DataFrame(old_scaled_array),new_scaled_df]).reset_index().drop(["index"],axis&＃61;1)

full_df 形状是 (60,5)&＃xff0c;最后第一列有 30 个 nan 值。

要进行预测必须再次使用 for 循环&＃xff0c;我们在拆分 trainX 和 trainY 中的数据时所做的。但是这次我们只有 X&＃xff0c;没有 Y 值。

full_df_scaled_array&＃61;full_df.values all_data&＃61;[] time_step&＃61;30 for i in range(time_step,len(full_df_scaled_array)): data_x&＃61;[] data_x.append( full_df_scaled_array[i-time_step :i , 0:full_df_scaled_array.shape[1]]) data_x&＃61;np.array(data_x) prediction&＃61;my_model.predict(data_x) all_data.append(prediction) full_df.iloc[i,0]&＃61;prediction

对于第一个预测&＃xff0c;有之前的 30 个值&＃xff0c;当 for 循环第一次运行时它会检查前 30 个值并预测第 31 个“Open”数据。

当第二个 for 循环将尝试运行时&＃xff0c;它将跳过第一行并尝试获取下 30 个值 [1:31] 。这里会报错错误因为Open列最后一行是 “nan”&＃xff0c;所以需要每次都用预测替换“nan”。

最后还需要对预测进行逆变换&＃xff1a;

new_array&＃61;np.array(all_data) new_array&＃61;new_array.reshape(-1,1) prediction_copies_array &＃61; np.repeat(new_array,5, axis&＃61;-1) y_pred_future_30_days &＃61; scaler.inverse_transform(np.reshape(prediction_copies_array,(len(new_array),5)))[:,0] print(y_pred_future_30_days)

这样一个完整的流程就已经跑通了。

如果你想看完整的代码&＃xff0c;如下方式获取

4、获取方式

代码已打包放置后台了&＃xff0c;获取方法如下&＃xff1a;

方法1、微信搜索公众号&＃xff1a;Python学习与数据挖掘&＃xff0c;后台回复&＃xff1a;lstm
方法2、扫描二维码或者发送图片到微信识别&＃xff0c;后台回复&＃xff1a;lstm

推荐阅读

search
吴裕雄数据挖掘实战案例（13）：GBDT模型的深入应用与解析

#导入第三方包importpandasaspdimportmatplotlib.pyplotasplt#读入数据defaultpd.read_excel(r&# ... [详细]

蜡笔小新 2024-10-22 01:29:43
tree
决策树在鸢尾花数据集上对不同特征组合的分类效果分析及模型性能比较

本文探讨了决策树算法在鸢尾花数据集上的应用，分析了不同特征组合对分类效果的影响，并对模型性能进行了详细比较。决策树作为一种层次化的分类方法，通过递归地划分特征空间，形成树状结构，每个节点代表一个特征判断，最终达到分类目的。研究结果表明，不同特征组合对模型性能有显著影响，为实际应用提供了重要参考。 ... [详细]

蜡笔小新 2024-10-25 19:17:40
split
Python 主成分分析（PCA）及其相关系数计算方法

本文详细介绍了如何使用 Python 进行主成分分析（PCA），包括数据导入、预处理、模型训练和结果可视化等步骤。通过具体的代码示例，帮助读者理解和应用 PCA 技术。 ... [详细]

蜡笔小新 2024-11-13 19:56:29
split
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
import
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
search
解决针织难题：R语言编程技巧与常见错误分析

解决针织难题：R语言编程技巧与常见错误分析 ... [详细]

蜡笔小新 2024-11-08 15:02:19
search
利用Python实现高效语音识别技术

本文探讨了利用Python实现高效语音识别技术的方法。通过使用先进的语音处理库和算法，本文详细介绍了如何构建一个准确且高效的语音识别系统。提供的代码示例和实验结果展示了该方法在实际应用中的优越性能。相关文件可从以下链接下载：链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ，提取码：p57s。 ... [详细]

蜡笔小新 2024-11-07 13:05:53
search
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
search
循环读取文本文件时遇到的常见错误及解决方法

在循环读取文本文件时，经常会遇到一些常见的错误，如日期格式不正确、文件路径错误等。本文详细分析了这些问题，并提供了具体的解决方法，包括如何正确处理日期字符串和确保文件路径的准确性。通过这些方法，可以有效提高数据读取的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-02 12:16:05
tree
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38
search
在Windows命令行中利用Conda高效管理虚拟环境的创建与删除

在Windows命令行中，通过Conda工具可以高效地管理和操作虚拟环境。具体步骤包括：1. 列出现有虚拟环境：`conda env list`；2. 创建新虚拟环境：`conda create --name 环境名`；3. 删除虚拟环境：`conda env remove --name 环境名`。这些命令不仅简化了环境管理流程，还提高了开发效率。此外，Conda还支持环境文件导出和导入，方便在不同机器间迁移配置。 ... [详细]

蜡笔小新 2024-10-28 17:27:00
search
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
search
深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例

深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例 ... [详细]

蜡笔小新 2024-11-07 20:50:46
search
MySQL 8.0 二进制日志格式详解及官方文档参考

MySQL 8.0 中的二进制日志格式详细解析及其官方文档参考。本文介绍了MySQL服务器如何使用不同的日志记录格式来记录二进制日志，包括早期版本中基于SQL语句的复制机制（即基于语句的日志记录）。此外，还探讨了其他日志记录方式，如基于行的日志记录和混合日志记录模式，并提供了配置和管理这些日志格式的最佳实践。 ... [详细]

蜡笔小新 2024-10-25 15:40:36
search
Phoenix 使用体验分享与深度解析

闲来无事看了下hbase方面的东西，发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作：启动hadoop集群启动zookkeeper启动hba ... [详细]

蜡笔小新 2024-10-22 14:57:42

风云a899

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章